#LLM 벤치마크

로봇이 달려올 때, 당신은 어떤 AI를 선택할 것인가?

한 개발자가 11개의 주요 대형 언어 모델(LLM)을 2D 배틀로얄 게임에 투입해 30판의 대결을 시켜보았습니다. 그 결과, 승리와 효율성에서는 엑스AI의 Grok이 압도했으나, 협력과 소통에서는 Anthropic의 Claude가 뛰어난 성능을 보였습니다. 이 실험은 기존의 정적인 AI 벤치마크가 실제 에이전트의 행동과 성향을 예측하는 데 한계가 있음을 보여줍니다.

LLM 벤치마크 AI 에이전트 배틀로얄 실험

Hacker News • 68일 전

IMP 6

안티그래비티 2.0, OpenSCAD 건축 3D LLM 벤치마크 1위

ModelRift가 여러 AI 코딩 도구를 대상으로 텍스트 기반의 파라미터 3D 모델링 도구인 OpenSCAD를 사용해 판테온을 설계하는 벤치마크를 진행했습니다. 그 결과, 안티그래비티 2.0(Antigravity 2.0) 모델이 가장 뛰어난 공간 기하학 처리 및 건축적 디테일 구현 능력을 보여주며 1위를 차지했습니다. 이 벤치마크는 LLM이 복잡한 3D 형상을 얼마나 잘 코드로 변환하는지 평가하여, AI가 실제 CAD 및 3D 프린팅 워크플로우에 적용될 수 있는지를 보여준다는 점에서 중요합니다.

3D 모델링 AI 코딩 에이전트 LLM 벤치마크

Hacker News • 87일 전

IMP 8

중국 AI 모델, 코딩 경진대회서 클로드·GPT 제쳤다

중국 스타트업 문샷AI(Moonshot AI)의 오픈웨이트 모델인 'Kimi K2.6'이 실시간 프로그래밍 및 퍼즐 대회에서 서구권 주요 AI 모델들을 제치고 압도적인 1위를 차지했습니다. 특히 2위 역시 중국 샤오미의 'MiMo V2-Pro'가 차지하며, 특정 과제에서 중국산 AI 모델들의 코딩 및 전략적 추론 능력이 글로벌 최고 수준에 도달했음을 보여주었습니다.

AI 코딩 오픈웨이트 문샷AI